估计数据集的难度通常涉及将最新模型与人类进行比较;性能差距越大,据说数据集就越难。但是,这种比较几乎没有理解给定分布中的每个实例的难度,或者什么属性使给定模型的数据集难以进行。为了解决这些问题,我们将数据集难度框架 - W.R.T.模型$ \ MATHCAL {V} $ - 由于缺乏$ \ Mathcal {V} $ - $ \ textit {usable Information} $(Xu等,2019),其中较低的值表示更困难的数据集用于$ \ mathcal {v} $。我们进一步介绍了$ \ textit {pointSise $ \ mathcal {v} $ - 信息} $(pvi),以测量单个实例的难度W.R.T.给定的分布。虽然标准评估指标通常仅比较同一数据集的不同模型,但$ \ MATHCAL {V} $ - $ \ textit {usable Information} $ and PVI也允许相反:对于给定的模型$ \ Mathcal {v} $,我们,我们,我们可以比较同一数据集的不同数据集以及不同的实例/切片。此外,我们的框架可以通过输入的转换来解释不同的输入属性,我们用来在广泛使用的NLP基准中发现注释人工制品。
translated by 谷歌翻译
AI正在经历范式转变,随着模型的兴起(例如Bert,Dall-E,GPT-3),这些模型经过大规模的数据训练,并且可以适应广泛的下游任务。我们称这些模型基础模型来强调其至关重要但不完整的特征。该报告提供了基础模型的机会和风险的详尽说明,包括其功能(例如语言,愿景,机器人技术,推理,人类互动)和技术原则(例如,模型架构,培训程序,数据,系统,安全,安全性,评估,理论)对其应用(例如法律,医疗保健,教育)和社会影响(例如不平等,滥用,经济和环境影响,法律和道德考虑)。尽管基础模型基于标准的深度学习和转移学习,但它们的规模导致了新的新兴能力,以及它们在许多任务中的有效性都激发了同质化。同质化提供了强大的杠杆作用,但要求谨慎,因为基础模型的缺陷均由下游的所有适应模型继承。尽管即将广泛地部署基础模型,但我们目前对它们的工作方式,失败以及由于其新兴属性的影响而缺乏清晰的了解。为了解决这些问题,我们认为基础模型的许多批判性研究都需要与他们的基本社会技术性质相称。
translated by 谷歌翻译